Visione

I processi psicologici alla base della visione possono essere divisi in precoci, intermedi e tardivi. I primi sono quelli che Th. Reid nel XVII secolo definì come «sensazione» in contrasto alla «percezione», termine che definisce invece i processi tardivi. La sensazione è l'impressione che un oggetto traccia sulla mente, la percezione implica un processo ulteriore che permette il riconoscimento dell'oggetto. La sensazione costituisce il materiale grezzo, il puro contenuto su cui lavora la mente; la percezione rappresenta il concetto di ciò che appare ai nostri sensi. I processi intermedi, come vedremo dopo, sono più complessi di quelli precoci, rappresentano un presupposto necessario alla percezione ma avvengono in modo automatico e quindi precedono quelli tardivi nel continuum dell'elaborazione dell'informazione visiva.

I processi precoci consistono essenzialmente nella rappresentazione delle superfici degli elementi presenti nella scena visiva con meccanismi simili a quelli che possono essere implementati da un computer, con l'ovvia differenza che la visione umana impiega la diottrica dell'occhio mentre quella del computer impiega la telecamera. Il cristallino umano permette la messa a fuoco delle immagini del mondo circostante sulla superficie recettoriale posta nello strato esterno della retina, quello più vicino alla sclera, la membrana che riveste il bulbo oculare. Pertanto i raggi luminosi devono passare attraverso tutta la retina prima di arrivare allo strato recettoriale, con conseguenti fenomeni di aberrazione ottica. Per tale ragione l'area retinica dotata della massima acuità, la fovea, che riceve la luce dalla parte centrale del campo visivo, contiene soltanto recettori (e fra questi soltanto i coni e non i bastoncelli) e non le altre cellule retiniche (gangliari, amacrine, orizzontali), come invece avviene per le altre porzioni della retina. In tal modo, i fenomeni di aberrazione sono minimizzati perché i raggi luminosi attraversano una matrice estremamente sottile. L'immagine del mondo che si forma nella retina verrà poi modificata dai centri cerebrali, ma contiene già tutti gli elementi necessari a codificare le variazioni di luminosità e il colore degli oggetti circostanti. Questa fase precoce della visione serve a rilevare attributi fondamentali come la posizione, il movimento, la forma, il colore degli oggetti. Sono solo le fasi tardive che permettono di analizzare gli aspetti prettamente cognitivi come il riconoscimento degli oggetti e la valutazione del significato di un evento. L'operazione fondamentale, nelle fasi precoci e intermedie della visione, è la formazione di immagini che siano stabili nonostante variazioni di prospettiva o di illuminazione. Per fare ciò l'input retinico ai centri viene analizzato in termini di margini, tessiture e colori. Inoltre, viene computato il movimento degli oggetti rispetto all'osservatore o di quest'ultimo rispetto agli oggetti, allo scopo di operare la distinzione figura/sfondo, di ricostruire l'immagine tridimensionale completa dell' oggetto e di ricostruire il percorso dell'osservatore nell'ambiente. Altro indizio importante è rappresentato dalla visione stereoscopica, resa possibile dalla presenza di due occhi nell'uomo e dall'uso di due camere nella visione artificiale computerizzata.

In sostanza, la visione, nelle sue fasi precoci, anche se percepita come immediata e senza sforzo, rappresenta un'elaborata fase fondamentale per la costruzione di un'immagine stabile e veridica dello spazio visivo. La diversità dei compiù che vengono eseguiti in base all'immagine retinica, come il riconoscimento degli oggetti, la loro prensione, o la stabilizzazione visiva della postura fanno comprendere come la visione non sia un processo unico ma sia costituita da moduli specializzati (Marr, 1982). L'evidenza in favore dell'esistenza di moduli separati per l'analisi di attributi diversi dell'informazione visiva proviene sia da dati neurofisiologici che psicofisici. Numerosissimi studi effettuati negli ultimi cinquantanni con la tecnica della registrazione da singole cellule nel gatto e nella scimmia hanno dimostrato l'esistenza di neuroni che, per una data posizione nel campo visivo, individuata mappando il cosiddetto «campo recettivo», rispondono selettivamente all'orientamento, alla direzione, al movimento di stimoli visivi di diversa frequenza spaziale. Il concetto dì «frequenza spaziale» di uno stimolo luminoso si è rivelato di grande utilità nello studio sia neurofisiologico che psicofisico della visione. Il termine definisce la distribuzione spaziale del contrasto in un'immagine, e può essere applicato a qualsiasi immagine grazie al teorema di Fourier. La frequenza spaziale di un'immagine è particolarmente semplice da rilevare, se si usano reticoli chiaro-scuri con andamento sinusoidale costituiti da cicli di determinata larghezza: grande per le frequenze spaziali basse, piccola per le alte. In ogni caso, anche per stimoli più complessi, secondo il teorema di Fourier, ciascuna figura può essere scomposta in frequenze spaziali multiple di una frequenza fondamentale.

Una scoperta importante per il progresso della ricerca sulla visione è stata che la soglia per la rilevazione di un reticolo (cioè di contrasti chiaro-scuro) varia in maniera caratteristica a seconda della sua frequenza spaziale. Ad esempio, in condizioni di scarsa visibilità si ha un innalzamento della soglia, soprattutto per le frequenze alte, e lo stesso avviene quando il reticolo è presentato alla periferia del campo visivo. In condizioni di buona illuminazione e in visione centrale si può costruire la classica «curva di sensibilità al contrasto» in funzione della frequenza spaziale, dove si vede come la soglia di rilevazione sia tipicamente più bassa per frequenze spaziali intorno ai 6 cicli per grado (un ciclo corrisponde a una sequenza chiaro-scuro) e diventi progressivamente pili aita sia per frequenze pili basse che per quelle pili alte. In altre parole, il nostro sistema visivo opera in maniera ottimale a determinate frequenze spaziali che non sono né troppo basse né troppo alte, in analogia con quanto succede per la sensibilità del sistema uditivo, la quale è ottimale per toni di una determinata gamma di frequenza e peggiora sia per toni più bassi che per toni più alti.

E’ interessante sottolineare come progressi fondamentali nello studio dei canali visivi selettivi per le varie caratteristiche dello stimolo siano stati ottenuti con una tecnica psicofisica di «adattamento selettivo al contrasto». C. Blakemore e F. Campbell (1969) hanno visto che, se un osservatore si adatta a un reticolo ad alto contrasto di una determinata frequenza spaziale, si ha un innalzamento notevole della soglia che è squisitamente selettivo per il rilevamento di un reticolo della stessa frequenza spaziale e dello stesso orientamento. Questo suggerisce un affaticamento selettivo di neuroni specificamente sensibili a quella frequenza spaziale e a quel determinato orientamento. Questo fenomeno non può essere di natura retinica, perché l'adattamento si ha anche se viene esposto un occhio e poi viene testato l'altro rimasto coperto. La presenza di un trasferimento interoculare è considerata dagli psicofisici un indice sicuro che il fenomeno è postchiasmatico, avviene cioè in siti neurali che ricevono l'input da entrambi gli occhi. I primi neuroni che ricevono il segnale da entrambi gli occhi si trovano nella corteccia visiva primaria, nota anche come corteccia striata, pertanto si ritiene chi questi fenomeni avvengano a livello precoce nella catena di elaborazione corticale del segnale visivo che, come dimostrato da D. Hubel e T. Wiesel, va incontro a un'elaborazione progressiva dall'area visiva primaria (corteccia striata o area 17) alle aree extn striate (18 e 19) e infine alle aree visive dei lobi temporali e parietali (Kandel, Schwartz e Jessell, 2000). Al contrario, i fenomeni di adattamento alla luce o al buio, o le cosiddette immagini postume positive o negative, non trasferiscono da un occhio all'altro e sono quindi esclusivamente retinici. Un punto fondamentale è che queste proprietà di adattamento locale di natura corticale corrispondono perfettamente alle proprietà di risposta dei neuroni della corteccia visivi che sono state descritte dagli esperimenti pionieristici di Hubel e Wiesel e di molti altri dopo di loro.

Il quadro generale che emerge da questi studi neurofisiologici e psicofisici è che l'immagine retinica viene analizzata da popolazioni diverse di neuroni corticali, ciascuna sensibile a una caratteristica dell'immagine, quale l'orientamento, la frequenza spaziale, il movimento, per non parlare poi della tridimensionalità e del colore. Chiaramente, queste diverse popolazioni verranno attivate in misura proporzionai mente diversa a seconda delle diverse configurazioni visive, e questo codice di popolazione potrebbe rappresentare il substrato neurale che permette la discriminazione delle forme e dei colori su cui si basa prevalentemente il riconoscimento degli oggetti. Un codice di popolazione rappresenta un sistema pili vantaggioso di un codice basato su un detettore unico costituito da una cellula o colonna di cellule (la cosiddetta grand-mother cell, la cellula cioè che «rappresenta» una determinata persona o oggetto e che si attiva unicamente quando viene vista tale configurazione), perché offre una maggiore risoluzione ed è meno vulnerabile alla lesione. L'alta densità delle cellule del IV strato della corteccia striata, che nella scimmia possiede la più alta densità neuronale di tutta la corteccia, rappresenta un substrato ideale per contenere l'enorme quantità di rappresentazioni possibili nella scena visiva.

L’uso di configurazioni visive semplici ha chiaramente permesso di studiare la correlazione fra meccanismi neurali e psicofisici.

Tuttavia, la visione è caratterizzata anche da operazioni più complesse della rilevazione di reticoli chiaro-scuri o di linee, margini o angoli luminosi. Prima di esaminare il campo dei processi tardivi, occorre discutere brevemente dei processi intermedi, che rappresentano operazioni visive fondamentali ma non tutte facilmente correlabili a processi neurali ben determinati. Queste operazioni sono alla base, ad esempio, della visione stereoscopica e delle costanze percettive, e sono messe in evidenza in maniera eclatante dalle illusioni ottiche, veri e propri esperimenti fatti dalla natura stessa. Un esempio particolarmente interessante è rappresentato dalla ben nota illusione della griglia di Hermann, visibile in una configurazione costituita da una serie di scuri separati da una griglia chiara. Alla semplice ispezione della figura si notano immediatamente, nei punti d'intersezione a forma di croce della griglia chiara, delle macchie rotonde grigie che non sono parte dell'immagine ma sono illusorie. Questa potente illusione ottica può essere spiegata molto bene dalle caratteristiche di risposta delle cellule gangliari della retina. Con la tecnica della registrazione da singole cellule è stato visto che ci sono due tipi di cellule gangliari retiniche, entrambi con una organizzazione concentrica del campo recettivo. Un tipo ha il centro del campo recettivo on, che risponde con una scarica eccitatoria alla presentazione di un puntino luminoso, mentre la periferia è un anello off, che viene inibito dalla luce e risponde alla sua cessazione. Questo tipo di cellula sarà attivata in maniera massimale da un'immagine che abbia un centro rotondo luminoso e un anello scuro intorno. L'altro tipo di cellula gangliare ha un'organizzazione speculare rispetto al centro del campo recettivo off e la periferia on, e pertanto sarà massimamente attivato da uno stimolo scuro al centro circondato da un anello luminoso. La presenza di macchie grigie alle intersezioni fra le linee chiare della griglia è ben spiegata dal fatto che le cellule centro-ON, che si trovano al centro dell'intersezione, hanno anche buona parte della periferia off esposta alla luce (nelle quattro braccia della intersezione a forma di croce) e quindi ricevono una forte inibizione dalla periferia off. Al contrario, le cellule centro-ON che non stanno al centro dell'intersezione ma in una delle linee chiare che compongono la griglia ricevono meno inibizione dalla periferia. La ridotta attivazione delle centro-ON che stanno al centro dell'intersezione viene interpretata dal sistema visivo come un segnale che quella zona è meno chiara di quella posta lungo la linea e quindi viene percepita come grigia. Questa illusione fornisce un buon esempio di come si possono implementare dei modelli neurali della percezione basandosi su fenomeni psicofisici e dati neurali molto ben documentati. Altre famose illusioni ottiche, come quella di Müller-Lyer o quella di Ponzo, sono spiegate meglio da altri approcci allo studio della percezione, come nel caso della Müller-Lyer dalle teorie della Gestalt, e nel caso dell'illusione di Ponzo dall'effetto automatico della costanza di grandezza.

Le costanze percettive rappresentano un processo intermedio nella visione, nel senso che sono operazioni complesse, ma riguardano fasi precognitive della visione che operano in modo prevalentemente automatico. Le più importanti sono la costanza di grandezza, di forma, di luminosità, di colore. Ad esempio, la costanza di grandezza permette di giudicare le dimensioni di un oggetto indipendentemente dalla grandezza dell'angolo retinico. Operazione che sarebbe impossibile per un dispositivo come la cellula fotoelettrica. Un elefante è visto più grande di un topo anche se posto a una distanza tuie, rispetto u quella del topo, che la grandezza delle immagini retiniche risulta equivalente. Qui, naturalmente, possono giocare un ruolo anche fattori cognitivi legati alle nostre conoscenze sui due animali, ma le operazioni di costanza percettiva sono rapide, non richiedono sforzo e possono svolgersi anche su oggetti di forma uguale. La costanza di grandezza è alla base anche di alcune note illusioni ottiche, come quella della luna e quella di Ponzo. Nell'illusione di Ponzo ci sono due linee convergenti che danno una sensazione di profondità (ad es. un binario ferroviario); due linee rette di uguale lunghezza vengono poste una più vicina all'apice delle linee convergenti e una più lontana. La forte illusione che si prova è che la linea più vicina all'apice appare pili lunga dell'altra. Si ritiene che la costanza di grandezza «ipercorregga» la lunghezza della retta che appare, illusoriamente, più lontana, facendola apparire più grande di quella che, illusoriamente, appare più vicina.

La «costanza di forma» permette di riconoscere un oggetto da prospettive diverse che creano immagini retiniche molto differenti. Si prenda ad esempio una bicicletta: se vista di lato appare notevolmente diversa da quando viene vista dall'alto o dal davanti (o dietro). Quindi, il nostro sistema percettivo deve generalizzare attraverso varie immagini retiniche e considerarle come appartenenti a un oggetto unico. La «costanza di luminosità» permette di giudicare una superficie come più chiara (o scura) di un'altra indipendentemente dalla quantità di energia luminosa (fotoni) emessa. Ad esempio, un lenzuolo bianco nella penombra riflette meno luce di un drappo nero al sole, tuttavia il nostro sistema percettivo ci fa vedere il lenzuolo di colore bianco e il drappo di colore nero indipendentemente dalla quantità di luce riflessa. Infine, la «costanza cromatica» ci permette di vedere come costante un colore indipendentemente dall'illuminazione dell'ambiente, naturalmente in condizioni fotopiche. Un interrogativo importante è se le costanze percettive siano presenti alla nascita o siano una forma di apprendimento percettivo che necessita dell'esperienza. Vari esperimenti su neonati, che hanno in larga parte usato tecniche basate sullo sguardo preferenziale e sul fenomeno comportamentale dell'abitudine, per cui il neonato tende a guardare oggetti nuovi o più salienti, hanno mostrato risultati diversi per i vari tipi di costanze. Quella di grandezza e quella di forma sono presenti alla nascita, mentre la costanza cromatica, saggiata con stimoli isoluminanti, non è ancora completa a quattro mesi dalla nascita.

Un altro fenomeno fondamentale per la percezione visiva, che rappresenta un processo intermedio, è rappresentato dalla «percezione della profondità», che si basa sia su indizi cosiddetti monoculari che su quelli binoculari legati alla stereopsi. I primi sono rappresentati dagli indizi pittorici quali la sfumatura (punti più lontani in un paesaggio sono più sfumati), l'occlusione (un oggetto più vicino copre uno più lontano e non viceversa) e altri indizi ben noti ai pittori. Un indizio, importante soprattutto negli uccelli che hanno un campo visivo prevalentemente monoculare, è rappresentato dalla «parallasse da movimento», che permette di localizzare con grande precisione una piccola preda, ad esempio un roditore per un falco che vola alto. Questo è un fenomeno interamente spiegabile con le leggi dell'ottica geometrica ed è ben visibile anche nell'uomo quando si guarda dal finestrino di un veicolo in movimento. Gli alberi più vicini nel paesaggio appaiono muoversi più velocemente di quelli più lontani e in senso inverso. Questo rappresenta un potente indizio di profondità monoculare che non necessita della visione stereoscopica; ci sono dimostrazioni empiriche, però, che indicano come nell'uomo questo indizio sia d'importanza relativa. Di gran lunga più importante per la percezione della profondità e del rilievo è la «stereopsi», presente nei vertebrati con campo visivo binoculare.

Anche al giorno d'oggi la teoria più accettata per spiegare la stereopsi è quella di H. von Helmholtz, che si basa sugli esperimenti pionieristici dell'inglese Ch. Wheatstone, a cui si deve l'invenzione dello stereoscopio. Sostanzialmente, la teoria si basa sul concetto di «disparità retinica», per cui l'immagine di un oggetto posto davanti o dietro al punto di fissazione e di un piano ellittico passante per esso (oroptère) sottende sulla retina un angolo visivo leggermente diverso nei due occhi. Quando le due immagini monoculari vengono fuse a dare un unico percetto, tale disparità viene interpretata dai centri visivi come un segnale di profondità con un meccanismo automatico di «inferenza inconscia», come veniva definita da Helmholtz. l'esperimenti di registrazione da singoli neuroni nella corteccia visiva del gatto e della scimmia hanno dimostrato l'esistenza di neuroni selettivamente sensibili alla disparità retinica. Questo potrebbe essere, verosimilmente, il substrato neurale della percezione stereoscopica.

I processi intermedi forniscono un contributo fondamentale, insieme al colore, al riconoscimento degli oggetti, che rappresenta il risultato più alto dei processi tardivi della visione. Fra gli oggetti in senso lato, per quanto riguarda il genere umano, va considerata una categoria di stimoli di enorme importanza, e cioè il volto. Esiste una ricca serie di esperimenti volta a determinare se la percezione fisiognomica segua i meccanismi percettivi e cognitivi usati nel riconoscimento degli oggetti o invece si basi su meccanismi specifici. Uno dei dati a favore della specificità del meccanismo di riconoscimento dei volti è costituito dal cosiddetto «fenomeno d'inversione della faccia», per cui il riconoscimento fisiognomico è enormemente più disturbato di quello degli oggetti (ad esempio un'auto) dall'inversione sopra/sotto.

Lo studio dei processi più alti della visione si è arricchito, nell'ultimo mezzo secolo, del contributo sia della neuropsicologia che dell'intelligenza artificiale. Inoltre, nell'ultimo decennio si sono accumulati numerosi studi delle funzioni cognitive superiori umane mediante i metodi funzionali non invasivi d'indagine cerebrale, in particolare la risonanza magnetica funzionale. Gli studi neuropsicologici si sono focalizzati sulla dicotomia fra sistema visivo dorsale e ventrale, il primo importante per la localizzazione spaziale e il secondo per il riconoscimento degli oggetti. A questa dicotomia, originariamente proposta nel 1982 da L. Ungerleider e M. Mishkin, prevalentemente sulla base di studi sui primati non umani, se ne è aggiunta un'altra che rende conto meglio dei risultati degli studi sull'uomo. Si deve questa seconda distinzione a M. Goodale e D. Milner (2005), che hanno proposto un sistema visivo per il «che cosa» e uno per il «come» intendendo distinguere le funzioni visive che determinano il riconoscimento dell'oggetto da quelle che permettono l'azione motoria su di esso, come ad esempio la prensione.

A sostegno empirico di questa distinzione sta lo studio di casi di pazienti con agnosia per le forme che mantengono intatta la capacità di agire in maniera appropriata, da un punto di vista motorio, su oggetti che non riconoscono. Il caso più studiato è quello di D. F., una giovane donna che a causa di un'anossia cerebrale da avvelenamento da ossido di carbonio ha perso la capacità di discriminare le forme, incluse lettere e parole, e di riconoscere oggetti e volti, nonostante le funzioni visive elementari siano in larga parte preservate. In un ormai celebre test, alla paziente veniva chiesto di giudicare l'orientamento di una fessura simile a una buca per le lettere. La paziente andava completamente a caso nel giudicare se la fessura fosse verticale, orizzontale o ' obliqua. Tuttavia, quando le veniva chiesto d'impostare una lettera lo faceva orientando la mano in modo corretto e infilando perfettamente la lettera nella buca. Quindi, i processi percettivi necessari al riconoscimento erano compromessi, ma quelli necessari a un'appropriata azione motoria erano preservati.

Un caso speculare a questo, con compromissione del sistema visivo per l'azione e mantenimento di quello per il riconoscimento, è rappresentato dai pazienti con atassia ottica, che hanno lesioni che colpiscono aree della corteccia parietale posteriore e che, pur riconoscendo un oggetto, non riescono a eseguire movimenti appropriati verso di esso come l'afferramento. Questo esempio di doppia dissociazione di sintomi è uno dei cardini della ricerca neuropsicologica che permette di attribuire un preciso significato funzionale a determinate aree cerebrali.

Lo studio degli aspetti cognitivi della visione, oltre ai metodi di brain imaging funzionale, si sta avvalendo sempre di più delle ricerche in ambito neuropsicologico che permettono di approfondire gli aspetti cognitivi e affettivi della percezione, studiandone i disturbi in pazienti con lesioni cerebrali selettive.

CARLO ALBERTO MARZI